The mixture of Expert (MoE) parallelism is a recent advancement that scales up the model size with constant computational cost. MoE selects different sets of parameters (i.e., experts) for each incoming token, resulting in a sparsely-activated model. Despite several successful applications of MoE, its training efficiency degrades significantly as the number of experts increases. The routing stage in MoE relies on the efficiency of the All2All communication collective, which suffers from network congestion and has poor scalability. To mitigate these issues, we introduce SMILE, which exploits heterogeneous network bandwidth and splits a single-step routing into bi-level routing. Our experimental results show that the proposed method obtains a 2.5x speedup over Switch Transformer in terms of pretraining throughput on the Colossal Clean Crawled Corpus without losing any convergence speed.
translated by 谷歌翻译
由于监督模型无法学习可以在具有有限标签的域中概括的域名,因此自我监督学习(SSL)已成为计算机视觉中的理想范式。 SSL的最新流行导致了几种模型的开发,这些模型利用了不同的培训策略,架构和数据扩展政策,而没有现有的统一框架来研究或评估其在转移学习中的有效性。我们提出了一个数据驱动的几何策略,可以使用每个局部诱导的特征空间中的局部邻域分析不同的SSL模型。与考虑参数,单个组件或优化领域的数学近似的现有方法不同,我们的工作旨在探索SSL模型所学的表示歧管的几何特性。我们提出的歧管图指标(MGM)提供了有关可用SSL模型之间的几何相似性和差异的见解,它们在特定的增强方面的不变以及它们在转移学习任务方面的表现。我们的关键发现是两个方面:(i)与普遍的看法相反,SSL模型的几何形状与其训练范式(对比度,无对比性和基于群集)无关; (ii)我们可以根据其语义和增强歧管的几何特性来预测特定模型的传输学习能力。
translated by 谷歌翻译
边缘用户的计算和通信功能有限,为大型模型的联合学习(FL)创造了重要的瓶颈。我们考虑了一个现实但较少的跨设备FL设置,在该设置中,没有客户能够培训完整的大型模型,也不愿意与服务器共享任何中间激活。为此,我们提出了主要子模型(PRISM)训练方法,该方法利用模拟低级结构和内核正交性来训练在正交内核空间中的子模型。更具体地说,通过将单数值分解(SVD)应用于服务器模型中的原始内核,Prism首先获得了一组主要的正交核,其中每个内核都通过其单数值权衡。此后,Prism利用我们的新型抽样策略,该策略独立选择主要核的不同子集以为客户创建子模型。重要的是,具有较高的采样概率分配具有较大奇异值的内核。因此,每个子模型都是整个大型模型的低级别近似值,所有客户共同实现了接近全模型的训练。我们在各种资源受限设置中对多个数据集进行的广泛评估表明,与现有替代方案相比,PRISM的性能最高可提高10%,只有20%的子模型培训。
translated by 谷歌翻译
客户的计算和通信能力有限,在资源有限的边缘节点上对联邦学习(FL)提出了重大挑战。解决此问题的一种潜在解决方案是部署现成的稀疏学习算法,该算法在每个客户端对二进制稀疏面膜进行训练,并期望训练一致的稀疏服务器掩码。但是,正如我们在本文中调查的那样,与使用密集的模型相比,这种天真的部署与FL相比,尤其是在低客户资源预算的情况下,其准确性下降了。特别是,我们的调查表明,对客户的训练有素的面具之间存在严重的共识,这阻止了服务器面罩上的收敛,并可能导致模型性能大大下降。基于这样的关键观察,我们提出了联合彩票意识到的稀疏狩猎(Flash),这是一个统一的稀疏学习框架,可以使服务器以稀疏的子模型赢得彩票,从而在高度资源有限的客户设置下可以极大地提高性能。此外,为了解决设备异质性的问题,我们利用我们的发现来提出异性恋,在此,客户可以根据其设备资源限制拥有不同的目标稀疏预算。各种数据集(IID和非IID)上有多个模型的广泛实验评估显示了我们模型的优势,最多可屈服$ \ Mathord {\ sim} 10.1 \%$ $提高精度,$ \ mathord {\ sim} 10.26 \ times与现有替代方案相比,在类似的高参数设置中,沟通成本少于$较少。
translated by 谷歌翻译
联邦学习(FL)引起了人们对在存储在多个用户中的数据中启用隐私的机器学习的兴趣,同时避免将数据移动到偏离设备上。但是,尽管数据永远不会留下用户的设备,但仍然无法保证隐私,因为用户培训数据的重大计算以训练有素的本地模型的形式共享。最近,这些本地模型通过不同的隐私攻击(例如模型反演攻击)构成了实质性的隐私威胁。作为一种补救措施,通过保证服务器只能学习全局聚合模型更新,而不是单个模型更新,从而开发了安全汇总(SA)作为保护佛罗里达隐私的框架。尽管SA确保没有泄漏有关单个模型更新超出汇总模型更新的其他信息,但对于SA实际上可以提供多少私密性fl,没有正式的保证;由于有关单个数据集的信息仍然可以通过在服务器上计算的汇总模型泄漏。在这项工作中,我们对使用SA的FL的正式隐私保证进行了首次分析。具体而言,我们使用共同信息(MI)作为定量度量,并在每个用户数据集的信息上可以通过汇总的模型更新泄漏有关多少信息。当使用FEDSGD聚合算法时,我们的理论界限表明,隐私泄漏量随着SA参与FL的用户数量而线性减少。为了验证我们的理论界限,我们使用MI神经估计量来凭经验评估MNIST和CIFAR10数据集的不同FL设置下的隐私泄漏。我们的实验验证了FEDSGD的理论界限,随着用户数量和本地批量的增长,隐私泄漏的减少,并且随着培训回合的数量,隐私泄漏的增加。
translated by 谷歌翻译
基于学习的MRI翻译涉及一个合成模型,该模型将源对比度映射到目标对比图像上。多机构合作是跨广泛数据集培训合​​成模型的关键,但是集中式培训涉及隐私风险。联合学习(FL)是一个协作框架,相反,采用分散培训,以避免共享成像数据并减轻隐私问题。但是,成像数据的分布中固有的异质性可能会损害训练的模型。一方面,即使对于具有固定源目标配置的常见翻译任务,图像分布的隐式变化也很明显。相反,当规定具有不同源目标配置的不同翻译任务时,在站点内和跨站点内会出现明确的变化。为了提高针对域转移的可靠性,我们在这里介绍了MRI合成的第一种个性化FL方法(PFLSYNTH)。 PFLSYNTH基于配备映射器的对抗模型,该映射器会产生特定于单个站点和源目标对比的潜伏期。它利用新颖的个性化阻滞了基于这些潜伏期的发电机跨发电机图的统计和加权。为了进一步促进位点特异性,在发电机的下游层上采用了部分模型聚集,而上游层则保留在本地。因此,PFLSYNTH可以培训统一的合成模型,该模型可以可靠地跨越多个站点和翻译任务。在多站点数据集上进行的全面实验清楚地证明了PFLSHNTH在多对比度MRI合成中对先前联合方法的增强性能。
translated by 谷歌翻译
具有周期性模型的本地随机梯度下降(SGD)平均(FEDAVG)是联合学习中的基础算法。该算法在多个工人上独立运行SGD,并定期平均所有工人的模型。然而,当本地SGD与许多工人一起运行时,周期性平均导致跨越工人的重大模型差异,使全局损失缓慢收敛。虽然最近的高级优化方法解决了专注于非IID设置的问题,但由于底层定期模型平均而仍存在模型差异问题。我们提出了一个部分模型平均框架,这些框架减轻了联合学习中的模型差异问题。部分平均鼓励本地模型在参数空间上保持彼此接近,并且它可以更有效地最小化全局损失。鉴于固定数量的迭代和大量工人(128),验证精度高达2.2%的验证精度高于周期性的完整平均值。
translated by 谷歌翻译
联合学习(FL)是一种有效的学习框架,可帮助由于隐私和监管限制无法与集中式服务器共享数据时,帮助分布式机器学习。 FL使用基于预定义体系结构的学习的最新进展。然而,考虑到客户端的数据对服务器和数据分布是不可相同的客户端,在集中设置中发现的预定义体系结构可能不是FL中所有客户端的最佳解决方案。在这项工作中受到这项挑战的动机,我们介绍了蜘蛛,这是一种旨在搜索用于联合学习的个性化神经结构的算法框架。蜘蛛是根据两个独特特征设计的:(1)交替地以通用的方式优化一个架构 - 均匀的全球模型(Supernet),一个架构 - 异构本地模型,由基于重量共享的正则化连接到全球模型(2通过新颖的神经结构搜索(NAS)方法实现架构异构本地模型,其可以使用对准确值的操作级别扰动来逐渐选择最佳子网。实验结果表明,蜘蛛优于其他最先进的个性化方法,搜索的个性化架构更加推理效率。
translated by 谷歌翻译
联合学习(FL)是分布式学习范例,可以从边缘设备上的分散数据集中学习全局或个性化模型。然而,在计算机视觉域中,由于统一的流行框架缺乏探索,FL的模型性能远远落后于集中培训。在诸如物体检测和图像分割之类的高级计算机视觉任务中,FL很少有效地说明。为了弥合差距并促进电脑视觉任务的流动,在这项工作中,我们提出了一个联邦学习库和基准框架,命名为FEDCV,评估了三个最具代表性的计算机视觉任务:图像分类,图像分割,和物体检测。我们提供非I.I.D。基准测试数据集,模型和各种参考FL算法。我们的基准研究表明,存在多种挑战值得未来的探索:集中式培训技巧可能不会直接申请fl;非i.i.d。 DataSet实际上将模型精度降级到不同的任务中的某种程度;给出了联合培训的系统效率,具有挑战性,鉴于大量参数和每个客户端记忆成本。我们认为,这种图书馆和基准以及可比的评估设置是必要的,以便在计算机视觉任务中进行有意义的进展。 Fedcv公开可用:https://github.com/fedml-ai/fedcv。
translated by 谷歌翻译
数十亿无线设备将在不久的将来部署,利用更快的互联网速度和更多终点所带来的终点的可能性更快。随着IOT设备的盛开,将生成可能包含用户私人信息的大量数据。与隐私问题的高通信和储存成本,越来越挑战传统的集中式超云学习和处理IOT平台的生态系统。联邦学习(FL)已成为此问题最有前途的替代方法。在FL中,数据驱动的机器学习模型的培训是多个客户端之间的协作行为,而无需将数据带到中心点,因此减轻了通信和存储成本并提供了很大程度的用户级隐私。我们讨论了FL对于IOT平台的机会和挑战,以及如何启用未来的IOT应用程序。
translated by 谷歌翻译